34
こころの
測り方
「 再 現 可 能 性 」というパワー ワードがバズって久しいです。心 理学の再現可能性は統計の誤用, 出版バイアス,プレレジなどが絡 み合う複雑な問題です。本稿もま た再現可能性の話ですが,全くや やこしい話ではなく,「再現可能な データ解析をしましょう」という, 単純で誰もが今から実践できる話 です。誌面の都合でほんのさわり の紹介だけなので,本稿の内容に 興味を持った方は,ぜひ拙著『再 現可能性のすゝめ』1を手にとっ て見てください。 再現できないデータ解析 実験・調査を行い,データ解析 して,論文や報告書,プレゼン資 料などをつくります。家に帰るま でが遠足,ではありませんが,解 析して終わりではなく誰かに見せ るまでがデータ解析です。まず調 査・実験データが手元にありま す。エクセルなどの表計算ソフト で整形・集計したり,グラフを作 成したり,統計ソフトにコピペし たり。統計ソフトではメニューを 選んで,オプションをチェックし て,実行ボタンをクリック。完成 したグラフや統計ソフトの結果を プレゼン資料に貼りつけます。よ くみかける光景ですね。表計算ソ フトでは画面いっぱいに数値を眺 めることができます。見栄えの良 いプレゼン資料も完成します。満 足や充実感は得られるでしょう。 では再現可能性は得られるで しょうか。プレゼン用の資料が失 われたときに,同じものを作り出 せるでしょうか。いたるところで 込み入った手作業を忠実に再現で きない限り,再現可能性は保証さ れません。そして手作業を忠実に 再現することは不可能です。手順 を正確にメモしておけばいいと か,「私,失敗しないので」とい うツワモノもいるかもしれません が,それは過信です。人間は必ず 間違えます。 再現可能なデータ解析の 思考モデル 一連の作業はデータからプレゼ ン資料への「変換」とみなせま す。ただし再現できない一回限り の変換です。逆に再現可能な変換 とは,同じデータから誰でもいつ でも同じプレゼン資料を作り出せ るということです。「データ解析 が再現可能である」とは,「同じ データを入れれば同じモノに変換 してくれる何かが存在する世界」 に他なりません。ということは, 重要なのは出来上がったプレゼン 資料そのもの(変換した結果)で はなくプロセス(変換)の存在で す。再現可能なデータ解析とは, プレゼン資料を作ることではな く,再現可能な変換を作ることで す。この視点の転換は非常に重要 です。 では再現可能な変換には何が必 要でしょうか。答えは簡単で,す べてを機械化・自動化するための レシピです。変換の中からあらゆ る手作業を排除し,これと等しい 処理をコンピュータで実行可能に することです。人間は間違えたり 逆らったりしますが,機械は命令 に忠実です。ですから人がやるべ きことは,機械に与える命令(レ シピ=解析プログラムなど)の作 成です。結果を得ることではなく 命令を整えることこそが再現可能 なデータ解析の目的である,とい う考えを徹底的に頭に叩き込みま しょう。料理を作るのが目的なの ではなく,誰もが同じ料理を作れ るレシピを作成することが目的, ということですね。 例えばNature誌の投稿ガイド2 には“We encourage authors to make openly available any code or scripts that ʷould help readers reproduce any data︲processing steps.”と 明 記 されています。ここでのcode or scriptsが「変換のレシピ」に当 たります。レシピとデータがあれ ば,誰でもいつでも同じ結果を再 現できるというわけです。 再現可能なデータ解析の メリット とはいえ,これまで手作業で簡 単にやっていたことを機械化す る,その心理的障壁は低くありま せん。ここでは再現可能なデータ 解析のメリットを強調しておきま す。第一に信頼性の向上です。手 作業にミスはつきものですが,機 械は間違えません。第二に間違い の検証が挙げられます。プレゼン 資料をみて「なんか変」だったと しましょう。手作業の場合は,ど こでどのようなミスがあったか検 証する術がありません。機械化す ればミスも再現されるため,どこ が変なのか後から追跡できます し,修正も容易です。第三に作業 効率の圧倒的な向上です。手作業 の場合,データが増えれば掛け算 で作業量が増えます。データ集計 にミスが見つかれば,その後の作 業は全部やり直し。悪夢のようで すが,こんな経験がある人も多い でしょう。機械化されていれば,はじめよう
再現可能なデータ解析
中京大学心理学部 准教授高橋康介
(たかはし こうすけ)35 このような悪夢から抜け出すこと ができるのです。逆に,技術習得 のコストを除けば,デメリットは ありません。 再現可能なデータ解析を 始めよう どこから始めればいいでしょう か。最近は再現可能なデータ解析 のためのツールがたくさんありま す。「変換レシピの作成」という 視点の転換ができていればどのよ うなツールを使っても構いません が,心理学者にとって一番使いや すく汎用性が高い,そして習得の メリットが大きいツールはおそら くR,RStudio,そしてRマークダ ウンでしょう。 Rは言わずとしれた統計解析 用ソフトウェアです。無料です。 データの整形から統計解析,図表 作成など,簡単なR言語のコード で自由自在にデータ解析を行うこ とができます。最近では学部教育 でRを導入したという話もチラホ ラと出始めています。RStudioは Rを劇的に使いやすくするソフト ウ ェ ア で,Rは ツ ン でRStudioは デレです。特に理由がない限り RStudioとRを使いましょう。 最後にRマークダウンとは何 か。一言で表現するのは難しいの ですが,プレゼン資料の作成まで 再現可能にしてくれるものです。 言葉にすると取るに足らないもの のようですが,使ってみて初めて わかる,計り知れない恩恵があり ます。資料作成はデータが増える ほど作業量が増え,混乱の度合い を増します。どのグラフを貼れば いいのか,このグラフに対応する 統計結果はどこなのか,この結果 を出力したコードはどれなのか ……,ファイルを探し回り,ある いはエクセルの中を探し回ってな んとか作り上げた資料。それを, もう一度最初から同じものを作れ と言われたら,涙が出てきます。 Rマークダウンはそんな悩みか ら人々を救うのです。動作イメー ジを示しましょう(図1)。左側 は手で作成する「Rマークダウ ン」です。プレゼン資料を生み 出すレシピで,文書の情報,注釈 テキストなどに加え,Rのコード (コードの実行結果ではなく!) が書かれています。この例では, 調査の説明,データ読み込み,表 作成,平均値集計とグラフ化の 「コード」があります。再現可能 な変換のすべてが,この中にあり ます。あとはRStudioの「knitボ タン」というものを押せば右のプ レゼン資料が作成されます。何度 でも,同じものが作成されます。 データが追加されたら? もう一 度ボタンを押すだけです。もとの データはどこにあるの? データ を読み込むコードを確認するだけ です。グラフが変だったら? グ ラフを出力するコードを確認する だけです。再び手作業で集計す る,結果が入ったファイルを探し 回る,エクセルの中を探し回る, もうそんな必要はありません。 このようにRマークダウンとは 「同じデータを入れれば同じモノに 変換してくれる何かが存在する世 界」です。ここでRマークダウン の実力を説明するには全く誌面が 足りません。本稿を読んで再現可 能なデータ解析に目覚めた方は, ぜひ『再現可能性のすゝめ』を手 にとって,その素晴らしい世界に 足を踏み入れてみてください。 1 高 橋 康 介(2018)『 再 現 可 能 性 のすゝめ:RStudio によるデータ 解析とレポート作成』(シリーズ Wonderful R/石田基広 監修・市 川太祐・高橋康介・高柳慎一・福 島真太朗・松浦健太郎 編)共立 出 版 https://www.kyoritsu-pub. co.jp/bookdetail/9784320112438 2 NPG: https://www.nature. com/sdata/publish/submission-guidelines Profi le — 高橋康介 京都大学大学院情報学研究科修 了。博士(情報学)。JSPS 特別研 究員 SPD,東京大学先端科学技 術研究センター特任助教などを経 て現職。専門は認知心理学。 図 1 R マークダウンの動作イメージ。左が R マークダウンで,テキス トや画像と R コードからなるプレゼン資料のタネ。これが自動的に変換 されて,コードが集計結果やグラフなどに置き換えられたプレゼン資料 が出力される。 R マークダウン 変換 出力(HTML・ワード・ PDF など)